Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, изменяется ли (возрастает или уменьшается) один показатель в ответ на изменения другого? В статистических расчетах и выводах коэффициент корреляции обычно обозначается как rxy или Rxy.
Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон.
Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.
Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.
Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью, подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь, означающая, что изменения одного показателя сопровождаются изменениями другого показателя.
В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста, но разного роста, то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.
Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.
Расчет коэффициента корреляции Пирсона производится по следующей формуле:
Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение rxy – тем выше теснота связи между двумя величинами. rxy = 0 говорит о полном отсутствии связи. rxy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.
Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения rxy < 0.3 свидетельствуют о слабой связи, значения rxy от 0.3 до 0.7 - о связи средней тесноты, значения rxy > 0.7 - о сильной связи.
Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока:
Абсолютное значение rxy | Теснота (сила) корреляционной связи |
менее 0.3 | слабая |
от 0.3 до 0.5 | умеренная |
от 0.5 до 0.7 | заметная |
от 0.7 до 0.9 | высокая |
более 0.9 | весьма высокая |
Оценка статистической значимости коэффициента корреляции rxy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:
Полученное значение tr сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если tr превышает tкрит, то делается вывод о статистической значимости выявленной корреляционной связи.
Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице:
N | Содержание тестостерона в крови, нг/дл (X) | Процент мышечной массы, % (Y) |
1. | 951 | 83 |
2. | 874 | 76 |
3. | 957 | 84 |
4. | 1084 | 89 |
5. | 903 | 79 |
Σ(X) = 951 + 874 + 957 + 1084 + 903 = 4769
Σ(Y) = 83 + 76 + 84 + 89 + 79 = 441
Mx = Σ(X) / n = 4769 / 5 = 953.8
My = Σ(Y) / n = 441 / 5 = 82.2
N | Содержание тестостерона в крови, нг/дл (X) | Процент мышечной массы, % (Y) | Отклонение содержания тестостерона от среднего значения (dx) | Отклонение % мышечной массы от среднего значения (dy) |
1. | 951 | 83 | -2.8 | 0.8 |
2. | 874 | 76 | -79.8 | -6.2 |
3. | 957 | 84 | 3.2 | 1.8 |
4. | 1084 | 89 | 130.2 | 6.8 |
5. | 903 | 79 | -50.8 | -3.2 |
N | Содержание тестостерона в крови, нг/дл (X) | Процент мышечной массы, % (Y) | Отклонение содержания тестостерона от среднего значения (dx) | Отклонение % мышечной массы от среднего значения (dy) | dx2 | dy2 |
1. | 951 | 83 | -2.8 | 0.8 | 7.84 | 0.64 |
2. | 874 | 76 | -79.8 | -6.2 | 6368.04 | 38.44 |
3. | 957 | 84 | 3.2 | 1.8 | 10.24 | 3.24 |
4. | 1084 | 89 | 130.2 | 6.8 | 16952,04 | 46.24 |
5. | 903 | 79 | -50.8 | -3.2 | 2580,64 | 10.24 |
N | Содержание тестостерона в крови, нг/дл (X) | Процент мышечной массы, % (Y) | Отклонение содержания тестостерона от среднего значения (dx) | Отклонение % мышечной массы от среднего значения (dy) | dx2 | dy2 | dx x dy |
1. | 951 | 83 | -2.8 | 0.8 | 7.84 | 0.64 | -2.24 |
2. | 874 | 76 | -79.8 | -6.2 | 6368.04 | 38.44 | 494.76 |
3. | 957 | 84 | 3.2 | 1.8 | 10.24 | 3.24 | 5.76 |
4. | 1084 | 89 | 130.2 | 6.8 | 16952,04 | 46.24 | 885.36 |
5. | 903 | 79 | -50.8 | -3.2 | 2580,64 | 10.24 | 162.56 |
Σ(dx2) = 25918.8
Σ(dy2) = 98.8
Σ(dx x dy) = 1546.2
Значение коэффициента корреляции Пирсона составило 0.97, что соответствует весьма высокой тесноте связи между уровнем тестостерона в крови и процентом мышечной массы. Данная корреляционная связь является статистически значимой (p<0.01).